base <- read.csv("../Bases de datos/auto-mpg.csv")
library(modeest) # Moda
## Warning: package 'modeest' was built under R version 3.5.2
library(raster) #quantiles, coeficiente de variación
## Warning: package 'raster' was built under R version 3.5.2
library(moments)# asimetría, curtosis
## Warning: package 'moments' was built under R version 3.5.2
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.5.2
Estas medidas me permiten tener un idea sobre que tan centrados se encuentran los datos.
\[\bar{x}=\frac{\sum_{i=1} ^n x_i}{n}\]
mean(base$weight)
## [1] 2970.425
Es el valor bajo el cual se encuentra el 50% de los datos.
\[P(X\leq m)=0.5\]
median(base$weight)
## [1] 2803.5
Es el valor más frecuente en el conjunto de datos.
\[p(X = M) \ \geq p(x = x_i) , \ \forall _i = 1,2,...,n\]
mfv(base$mpg)
## [1] 13
Funciona similar a la media solo que con este valor se busca que la probabilidad o el corte pueda quedar en cualquier valor entre 0 y 1.
\[P(X \leq x_p) = p, \ p \in[0,1]\]
quantile(base$mpg)
## 0% 25% 50% 75% 100%
## 9.0 17.5 23.0 29.0 46.6
quantile(base$mpg, c(0.2,0.6))
## 20% 60%
## 16 25
Permiten evaluar cuánto queremos saber que tan desplazados están los valores con respecto a la media.
\[s^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\] La desviación estándar es usada con el propósito de llevar los resultados de la varianza a la escala original de los datos.
\[s = \sqrt s^2\]
var(base$displacement)
## [1] 10872.2
sd(base$displacement)
## [1] 104.2698
\[CV = \frac{s}{\bar{x}}*100\]
cv(base$displacement)
## [1] 53.90687
Me da una idea hacia donde están concentrados la mayoría de los datos.
\[CA = \frac{\sum_{i=1}^n (x_i-\bar{x})^3}{n\ s^3}\] * Si la asimetría es negativa se tiene una distribución con una gran concentración de datos a la derecha de la media.
Si la asimetría es cero se tiene una distribución con una gra concentración de datos en la media.
Si la asimetría es positiva se tiene una distribución con una gran concentración de datos a la izquierda de la media.
skewness(base$mpg)
## [1] 0.4553419
ggplot(base, aes(base$mpg)) + geom_density(fill = "blue")
\[C = \frac{\sum_{i=1}^n (x_i-\bar{x})^4}{n\ s^4}-3\] * Si la curtosis es negativa se tiene una distribución con una gran dispersión de los datos , con grandes colas y algo aplastada.
Si la curtosis es positiva se tiene una distribución con una baja dispersión de los datos , con colas pequeñas alrededor de la media.
Si la curtosis es cero se tiene una distribución con una estructura similar a una normal.
kurtosis(base$acceleration)
## [1] 3.399208
ggplot(base, aes(base$acceleration)) + geom_density(fill = "red")